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摘 要 : 太阳 黑子 是 发 生 在 太阳 光 球 层 的 现象 ,对 太阳 光斑 预测 具有 重要 意义 。 针 对 类 别 样本 数量 不 均衡 
的 三 分 类 太阳 黑子 数据 集 ， 提 出 了 双 模 型 集成 分 类 算法 。 该 方法 通过 一 轻 一 重 两 个 模型 ， 分 别 承担 两 个 类 
别 的 分 类 任务 ， 再 将 二 者 的 分 类 结果 进行 集成 ， 夹 和 逼 出 第 三 个 类 别 的 分 类 结果 。 实 验 表 明 该 方法 能 够 减少 
单个 模型 在 不 均衡 数据 集 上 出 现 的 过 拟 合 和 欠 拟 合 情 况 带 来 的 不 利 影响 ， 从 新 的 角度 解决 了 太阳 黑子 数据 
集 的 类 别 不 均衡 问题 ， 平 均 F1 分 数 达到 0.931 。 
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太阳 黑子 与 太阳 活动 密切 相关 ， 太 阳 活 动 中 最 强烈 的 活动 现象 是 太阳 光斑 由 ， 它 主要 
爆发 在 太阳 黑子 上 方 的 大 气 中 。 这 些 活动 会 扰乱 地 球 大 气 层 ， 影响 地 面 无 线 电 短 波 通 信 ， 并 
产生 一 些 危 害 ， 如 “ 磁 暴 ”现象 。 世 界 各 地 的 天 文 台 一 直 在 追踪 所 有 可 见 的 太阳 黑子 群 ， 并 
对 其 进行 分 类 和 分 析 ， 以 便 及 早 发 现 耀 班 。 如 果 能 够 比较 准确 地 实现 太阳 黑子 群 自 动 分 类 ， 
则 可 以 更 好 地 检测 某 些 类 别 太 阳 黑 子 群 的 生成 , 对 预警 耀 斑 具有 重要 意义 ， 同 时 提高 对 太阳 
周期 、 空 间 气 候 及 其 对 地 球 气候 系统 影响 的 理解 和 预警 能 力 。 和 典型 的 黑子 群 分 类 方法 可 以 分 
为 基于 传统 数字 图 像 处 理 算法 、 数 学 形态 法 和 小 波 分 析 法 ,以 及 当下 流行 的 基于 数据 驱动 的 
机 器 学 习 方法 。 近 年 来 随 着 观测 条 件 的 进步 , 与 太阳 活动 有 关 的 数据 增长 迅速 ， 基 于 深度 学 
习 方 法 的 优势 越 来 越 显 著 。 

Colak 等 中 采用 McIntosh 分 类 方案 ， 提 出 了 一 种 混合 系统 ， 该 系统 使 用 从 SOHO/MDI 
磁 图 图 像 中 提取 的 活动 区 域 数 据 ， 对 SOHO/MDI 白光 图 像 上 的 黑子 群 进行 自动 检测 MA 
MDI 白光 图 像 中 检测 到 黑子 后 , 使 用 MDI 磁 图 图 像 对 它们 进行 分 组 / 聚 类 。 通过 集成 图 像 处 
理 和 神经 网 络 , 自动 对 检测 到 的 黑子 进行 分 类 。 但 系统 存在 分 组 错误 和 小 型 黑子 漏 检 的 缺陷 。 
Colak 等 外 使 用 机 器 学 习 方 法 结合 传统 图 像 处 理 算法 提取 太阳 黑子 特征 ， 改 善 了 特征 提取 效 
果 ， 但 仍 存在 在 不 同 数据 集 上 泛 化 性 较 差 的 问题 。 

Abd 等 局 采用 改良 后 的 七 类 Zurich 分 类 方案 ， 使 用 SVM(Support Vector Machine， 支 持 
句 量 机 ) 来 实现 对 太阳 全 日 面 白 光 图 像 上 黑子 群 的 自动 分 类 。 在 数据 预 处 理 阶 段 ， 使 用 了 边 
缘 检 测 、 噪 声 去 除 以 及 二 值 化 来 分 割 黑子 群 和 日 面 ， 再 对 黑子 群 进行 无 监督 分 割 ， 将 属于 同 
一 组 的 黑子 进行 合并 ， 然 后 对 每 个 黑子 组 的 属性 进行 提取 ， 最 后 使 用 SVM 来 进行 分 类 。 该 
方法 精度 对 图 片 质量 和 失真 程度 有 所 要 求 ， 且 分 割 过 程 对 推断 耗 时 有 较 大 影响 。 

随 着 深度 学 习 的 发 展 和 可 训练 数据 量 的 增加 , 越 来 越 多 的 人 尝试 基于 卷 积 神经 网 络 提取 
图 像 特征 , 以 解决 图 像 的 分 类 1 分割 9 和 检测 中 世间 题 ,Fang 等 5 使 用 CNN(Convolutional 
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Neural Network， 卷 积 神经 网 络 ) 对 黑子 群 的 磁 类 型 进行 分 类 ， 在 数据 预 处 理 阶 段 图 像 被 分 为 
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三 类 , 白光 图 、 人 磁 图 以 及 白光 图 和 磁 图 的 合成 图 像 。 将 三 类 图 像 分 别 作 为 输入 源 输入 卷 积 神 
经 网 络 ， 进 行 分 类 , 结果 显示 单独 使 用 白光 图 的 分 类 效果 最 佳 。 该 方法 作者 认为 磁 图 结构 相 
对 白光 较为 复杂 ， 且 磁 图 使 用 CNN 不 能 很 好 地 提取 特征 ， 是 造成 使 用 磁 图 分 类 不 佳 的 主要 
原因 之 一 ; 除 此 之 外 , 三 类 图 像样 本 数量 不 均衡 带 来 的 问题 同样 没有 得 到 解决 ， 存 在 Beta-x 
类 别 过 拟 合 的 现象 。 

Yang 等 中 提出 了 一 种 双流 CNN. 的 太阳 黑子 磁 类 型 分 类 方法 。 该 模型 通过 双流 结构 解 
决 了 白光 图 和 磁 图 的 多 元 输入 问题 , 在 Alpha 类 别 上 的 分 类 准确 率 较 高 , 但 模型 参数 量 较 大 ， 
在 Beta-x 类 别 上 依然 存在 过 拟 合 问题 。 除 了 分 类 问题 ， 当 下 最 优 的 太阳 黑子 的 检测 模型 同 
样 存在 少 样本 类 别 过 拟 合 的 问题 ， 如 Fu 等 (4 提出 的 SunspotsNet 太阳 黑子 检测 模型 依然 无 
法 解决 类 别 不 均衡 问题 。 

而 本 文 提出 的 双 模 型 集成 算法 则 是 通过 两 个 模型 分 别 承担 Alpha 类 和 Beta-x 类 的 分 类 
任务 ， 即 针对 Alpha 类 别 设计 最 为 适合 的 分 类 模型 和 训练 策略 ， 针 对 Beta-x 类 别 设计 最 为 
合适 的 分 类 模型 和 训练 策略 , 并 辅 以 大 量 针对 不 均衡 数据 集训 练 的 调 优 技巧 , 最终 对 两 个 模 
型 的 结果 进行 集成 ,从 而 能 够 最 大 程度 地 解决 数据 集中 类 别 不 均衡 的 问题 。 上 述 双 模型 集成 
算法 同 当下 主流 的 集成 算法 不 同 55 0， 其 中 涉及 到 的 两 个 模型 均 有 明确 的 任务 分 工 ， 集 成 
单元 更 少 、 效 果 更 优 。 另 说 明 ， 本 文 提 出 的 基于 双 模 型 集成 的 不 平衡 数据 集 定向 分 类 模型 取 
得 了 阿里 天 池 太 阳 风 暴 识 别 和 预警 人 工 智 能 挑战 赛 的 第 二 名 ， 挑 战 赛 地 址 : 
https://tianchi.aliyun.com/competition/entrance/531803/rankingList ; 代码 也 已 开源 : 
https://github.com/gingyuanchen1997/Dual-Model-Integration 。 

1 本 文 方法 
1.1 数据 集 介绍 与 分 析 

深度 学 习 由 数据 驱动 , 故 首先 对 本 实验 所 用 数据 集 进行 介绍 与 分 析 , 进而 引出 后 续 算 法 。 

本 实验 所 用 数据 集 为 SOLAR-STORM1， 由 空间 环境 人 工 智 能 预警 创新 工 坊 整 理 提供 ， 
可 在 天 池 实 验 室 (https://tianchi.aliyun.com/dataset/) 公 开 下 载 。 该 数据 集 基于 Mount Wilson 
子 群 磁 类 型 分 类 方案 ， 该 方案 根据 磁场 极 性 对 黑子 群 进行 分 类 。 数 据 集 共 包含 Alpha、Beta 
和 Beta-x 三 个 类 别 的 太阳 黑子 数据 样本 ， 分 别 代 表单 极 黑子 群 、 极 性 之 间 具 有 简单 且 明 确 
划分 的 双 极 黑子 群 和 极 性 之 间 无 明确 划分 的 复杂 双 极 黑子 群 , 三 个 类 别 总 计 14469 个 数据 样 
本 。 其 中 每 个 数据 样本 均 包含 两 张 图 像 : 磁 图 和 白光 图 ， 二 者 为 一 一 对 应 关系 。 


图 1 上 图 分 别 为 Alpha〈 左 1) 、Beta( 左 2) 和 更 复杂 的 Beta-x (Æ 3、 左 4) 磁 类 型 的 太阳 黑子 群 磁场 
观测 图 像 〈 行 1) 和 白光 观测 图 像 ( 行 2) 

其 中 Alpha 类 太阳 黑子 的 磁场 图 和 白光 图 各 有 4709 张 ， 占 比 32.54%，Beta 类 太阳 黑子 

的 磁场 图 和 白光 图 各 有 7353 张 , 占 比 50.82%, Beta-x 类 太阳 黑子 的 磁场 图 和 白光 图 各 有 2407 

张 ， 占 比 16.64%， 可 见 数据 虽 整 体 数 量 尚 可 ， 但 三 个 类 别 的 训练 图 像 数 量 的 差异 却 十 分 巨 

大 ， 其 中 Beta-x 类 图 像 的 数量 远 小 于 Alpha 和 Beta 两 个 类 别 ， 另 经 查阅 资料 得 知 ， 在 现实 

观测 过 程 中 ，Alpha 类 别 和 Beta 类 别 的 太阳 黑子 出 现 的 概率 也 显著 高 于 Beta 类 别 的 太阳 黑 


子 出 现 的 概率 。 
Fig 1 The above figure shows the magnetic field observation images of sunspot groups of Alpha (left 1), Beta (left 
2) and more complex Beta-x (left 3 and left 4) magnetic types (line 1) and white light observation images (line 2) 
X 1 Alpha, Beta, Beta-x 黑子 数据 样本 占 训 练 集 比 重 


Table 1 Proportion of Alpha, Beta and Beta-x sunspot data samples in the training set 


黑子 类 别 样本 数量 数据 集 占 比 
Alpha 类 4709 32.5496 
Beta 类 7353 50.82% 
Beta-x 类 2407 16.64% 


1.2 双 模 型 集成 算法 

由 于 数据 集 在 万 张 量 级 , 总 计 14469 组 数据 样本 , 为 保证 模型 在 验证 集 和 测试 集 上 取得 
结果 的 可 靠 性 ， 故 将 其 按 3:1:1 的 比例 划分 为 训练 集 、 验 证 集 和 测试 集 。 另 由 于 数据 具有 时 
间 连 续 性 ， 其 时 间 精 度 为 96 分 钟 ， 即 每 间隔 96 分 钟 对 黑子 群 进行 一 次 观测 ， 且 黑子 群 演化 
具有 缓慢 性 ， 故 同一 个 黑子 群 在 一 定时 间 内 和 常会 保持 同一 种 磁 类 型 ， 且 相似 度 较 高 。 为 避免 
训练 集 同 验证 集 、 测 试 集 存在 信息 上 的 重 营 ,实验 基于 时 间 段 对 数据 集 进 行 划分 将 位 于 同 
一 时 间 段 内 的 不 同样 本 统一 放 入 训练 集 或 验证 集 或 测试 集 。 文 中 所 有 实验 均 采 用 五 折 交 叉 验 
证 ， 即 将 数据 集 切 分 为 5 份 ，! 份 作为 验证 集 ，1 份 作 为 测试 集 ， 剩 余 3 份 作 为 训练 集 ， 
组 实验 共 进 行 5 次 ,每 次 实验 均 基 于 已 切 分 的 5 份 数据 集 子 集 重 构 训 练 集 、 验 证 集 和 测试 集 ， 
最 终结 果 取 5 次 实验 的 平均 值 。 为 保证 双 模 型 集成 的 可 操作 性 , 在 每 一 轮训 练 中 两 个 模型 使 
相同 的 数据 集 。 实 验 首先 使 用 backbone 为 ResNet50 卷 积 层 的 网 络 在 训练 集 上 进行 训练 ， 
并 用 训练 出 的 模型 对 训练 集 和 验证 集 进行 分 类 。 
表 2 使 用 ResNet50 卷 积 层 作为 backbone，Alpha 类 、Beta 类 、Beta-x 类 在 训练 集 和 验证 集 上 的 Fl-score 

Table 2 The Fl-score of Alpha, Beta and Beta-x class on the training set and verification set while use 


ResNet50 as the backbone 


黑子 类 别 训练 集 F1-score 验证 集 FI-score 
Alpha 类 0.961 0.926 
Beta 类 0.943 0.859 
Beta-x 类 0.909 0.613 


HX 2 可 见 ，Beta-x 类 在 训练 集 上 的 Fl-score 远 高 于 在 验证 集 上 的 Fl-score, rfj Alpha 
类 和 Beta 类 在 训练 集 上 的 Fl-score 只 是 略 高 于 验证 集 上 的 Fl-score, 由 此 可 见 基 于 ResNet50 
训练 出 的 模型 对 于 训练 图 片 数量 较 少 的 Beta-x 类 存在 过 拟 合 的 情况 。 
故 实验 采用 相 比 于 ResNet50 卷 积 层 数 更 少 的 AlexNet 卷 积 层 作为 backbone， 从 而 得 到 
更 轻 量 级 的 网 络 模型 ， 并 重新 进行 了 训练 和 分 类 。 

3€ 3 使 用 AlexNet 作为 backbone，Alpha Æ, Beta 类 、Beta-x 类 在 训练 集 和 验证 集 上 的 Fl-score 


Table 3 The F1-score of Alpha, Beta and Beta-x class on the training set and verification set while use 


AlexNet as the backbone 
黑子 类 别 训练 集 Fl-score 验证 集 Fl-score 
Alpha 类 0.934 0.868 
Beta 类 0.899 0.821 
Beta-x 类 0.876 0.753 


结果 如 表 3 所 示 ， 更 小 更 轻 的 网 络 很 好 地 解决 了 Beta-x 类 因数 量 较 少 造成 的 过 拟 合 问 
题 ， 且 显著 提高 了 Beta-x 类 在 验证 集 上 的 Fl-score。 但 由 于 此 网 络 模型 参数 量 较 少 ， 故 模型 
的 拟 合 能 力 较 弱 ， 导 致 训练 图 像 数 量 较 多 的 Alpha 类 和 数量 更 多 的 Beta 类 出 现 了 欠 拟 合 的 
现象 ， 其 Fl-score 低 于 ResNet5O 模型 分 类 得 到 的 FI-score. 
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由 此 可 见 , 在 分 类 数据 集 各 类 别 数量 极其 不 平衡 的 情况 下 , 无 法 找 出 单一 的 一 种 神经 网 
络 模 型 同时 兼顾 训练 图 像 数 量 较 多 的 类 别 和 训练 图 像 数 量 较 少 的 类 别 。 即 对 于 参数 量 较 大 的 
网 络 ， 其 拟 合 能 力 较 强 , 但 需要 较 多 的 训练 图 像 ， 此 类 模型 对 分 类 问题 中 训练 图 像 数 量 较 多 
的 类 别 更 有 利 ; 而 对 于 参数 量 较 少 的 网 络 ， 其 拟 合 能 力 较 弱 , 但 需要 较 少 的 训练 图 像 ， 此 类 
模型 对 分 类 问题 中 训练 图 像 数 量 较 少 的 类 别 更 有 利 ; 由 此 , 本 文 确立 了 双 模 型 集成 理论 上 的 
有 效 性 。 
表 4 各 网 络 模型 对 验证 集 的 分 类 结果 中 Alpha 类 和 Beta-x 类 相互 被 误 分 的 图 像 数 量 


Table 4 The classification results of each network model on the verification set Alpha Class and Beta- 


Number of x-class images misclassified with each other 


Backbone Alpha 误 分 为 Beta-x case 数量 Beta-x 误 分 为 Alpha case 数量 
ResNet18 0 1 
ResNet50 0 0 
AlexNet 0 0 
m Alpha 
= Beta 
= Beta-x 
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图 2 Alpha 类 (£D). Beta 类 (ZO. Beta-x 28 CH) 特征 空间 分 布 示意 图 
Fig 2 Schematic diagram of characteristic spatial distribution of Alpha(red), Beta(green) and Beta-x (blue) 

另 经 过 多 个 模型 的 测试 ， 发 现 Alpha 类 和 Beta-x 类 存在 互 不 相干 性 ; 由 表 4 可 得 ， 在 
所 有 模型 的 分 类 结果 中 ， 真 实 的 Alpha 类 没有 出 现 或 极 少 出 现 被 误 分 为 Beta-x 类 的 情况 ， 
同样 ， 真 实 的 Beta-x 类 没有 出 现 或 极 少 出现 被 误 分 为 Alpha 类 的 情况 ， 两 者 的 错误 均 是 因 
为 同 Beta 类 的 混淆 。 另 外 将 利用 神经 网 络 提取 出 三 维特 征 在 三 维特 征 空间 中 进行 显示 ， 由 
图 2 可 以 看 出 ，Alpha 和 Beta-x 的 样本 点 在 特征 空间 中 距离 普遍 较 远 ， 二 者 特征 点 极 少 发 生 
混 倒 。 故 根据 上 述 实 验 结果 ， 确 定 了 双 模 型 集成 的 可 行 性 ， 即 不 同 模型 的 Alpha 与 Beta-x 
的 结果 互 不 影响 ， 集 成 后 的 结果 可 以 保留 两 个 模型 分 别 在 Alpha 和 Beta-x 上 的 分 类 精度 ; 
由 此 ， 本 文 确立 了 双 模 型 集成 的 理论 可 行 性 。 
综合 上 述 情况 , 分 别 单独 设计 一 重 一 轻 两 个 模型 ， 利用 重 模型 的 强 拟 合 能 力 ， 令 其 专注 
于 数量 较 多 的 Alpha 类 太阳 黑子 的 分 类 ; 利用 轻 模型 的 抗 过 拟 合 能 力 , 令 其 专注 于 数量 较 少 
的 Beta-x 类 太阳 黑子 分 类 ， 最 后 再 利用 Alpha 类 和 Beta-x 类 的 互 不 相干 性 ， 对 两 个 模型 的 
分 类 结果 进行 不 损失 精度 的 集成 融合 ， 用 重 模型 分 出 的 Alpha 类 和 轻 模型 分 出 的 Beta-x 类 
KEH Beta 类 ， 即 将 未 被 标记 类 别 的 样本 划 归 为 Beta 类 ， 如 图 三 所 示 。 


Alpha 模 型 在 Alpha 上 的 结果 O @OOO……' 0 
两 个 模型 夹 逼 出 的 Beta 上 的 结果 O O e O 0 ---O 
Beta-x 模 型 在 Beta-x 上 的 结果 e O O O O MS O 
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图 3 双 模 型 集成 示意 图 
Fig 3 Schematic diagram of dual model integration 

基于 ResNet18 设计 了 双 通 道 并 行 网 络 paraResNet， 将 其 作为 参数 较 多 的 大 模型 去 针对 
训练 图 像 数量 较 多 的 Alpha 类 ; 另 基于 AlexNet 设计 了 miniAlexNet 模型 ， 将 其 作为 参数 较 
少 的 小 模型 去 针对 训练 图 像 数量 较 少 的 Beta-x 类 。 
1.3 Alpha-model: paraResNet 
1.3.1 网 络 结构 

在 确立 了 双 模 型 集成 策略 后 ， 首 先 针对 性 设计 承担 Alpha 类 别 分 类 任务 的 模型 。 

比赛 主办 方 提 供 的 数据 集中 每 个 太阳 黑子 群 类 别 均 包含 两 种 图 像 , 磁场 观测 图 像 和 和 白 
光 观 测 图 像 。 


图 4 和 白光 观测 图 像 〈 左 ) 和 磁场 观测 图 像 〈 右 ) 
Fig 4 The white light observation image(lefb and the magnetic field observation image(right) 

两 图 像 尺 寸 相 同 , 位 深 相同 , 故 首先 尝试 将 均 为 人 位 位 深 的 单 通道 白光 观测 图 像 和 磁场 
观测 图 像 拼 接 成 16 位 深 图 像 送 入 ResNet18 网 络 进行 训练 和 分 类 , 但 是 由 于 其 纹理 特征 差异 
较 大 ， 拼 接 而 成 的 双 通 道 图 像 并 不 是 一 幅 自然 图 像 ， 其 分 类 效果 并 不 理想 。 故 根据 此 数据 集 
拥有 白光 、 磁 场 两 种 图 像 的 特点 ， 为 充分 提取 白光 图 和 磁场 图 的 特征 ， 采 用 了 同 Yang 等 
提出 的 双流 模型 方案 类 似 的 方案 ， 设 计 了 双 通 道 ResNet18 并 行 网 络 以 侧重 于 在 Alpha 2573 
上 的 分 类 性 能 ; 该 网 络 的 上 下 两 个 通道 分 别 负 责 提取 白光 图 和 磁 图 的 图 像 特 征 , 而 后 将 提取 
到 的 特征 进行 拼接 后 送 入 全 连接 网 络 。 


White light 
image 
[| 
Magnetic field 
image fc 


—Á 


Resnet18's conv layer*avgpool 


图 5 paraResNet 网 络 结构 图 
Fig 5 Network structure diagram of paraResNet 
在 此 基础 上 ， 本 实验 参考 了 He 等 性 在 模型 优化 方向 的 工作 ， 对 ResNet18 的 下 采样 层 
进行 改进 , 将 原本 同时 兼顾 减 小 特征 图 尺寸 和 改变 特征 张 量 深度 的 卷 积 层 , 蔡 换 成 了 负责 减 
小 特征 图 尺寸 的 平均 池 化 层 和 负责 改变 特征 张 量 深度 的 步 长 为 1 的 卷 积 层 , 通过 任务 分 工 减 
轻 了 原 卷 积 核 的 负担 ， 提 高 了 下 采样 模块 的 精度 。 根 据 该 网 络 结构 ， 本 文 将 之 称 为 
Parallel-ResNet18-D， 缩 写 为 paraResNet。 
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Output Output 


Conv 
1x1, 2048 


i Conv Conv 
3x3, 512 1x1, 2048, s=2 
Conv 
1x1, 512, $52 


Input Input 
图 6 ResNet18 的 下 采样 改进 方案 ，RseNetD 
Fig 6 Improved down sampling scheme of ResNet18: RseNet-D 


1.3.2. 训练 策略 

在 训练 技巧 上 ， 首 先 使 用 单 通道 白光 图 和 磁场 图 分 别 对 两 个 单 网 络 ResNet18 模型 进行 
预 训练 (不 采用 ImageNet 预 训练 )， 再 将 两 个 预 训练 模型 的 卷 积 层 迁移 至 双 网 络 模型 的 并 行 
卷 积 层 。 

在 损失 上 , AIREAK, 样本 较 少 的 类 别 享有 更 大 的 权重 , 用 以 减 小 各 类 别 
样本 数量 不 均衡 带 来 的 影响 。 

在 数据 增强 方面 ， 由 于 Alpha 类 和 与 其 相 邻 的 Beta 类 可 用 于 训练 的 图 像 数 量 较 多 ， 故 
只 采用 了 对 图 像 信息 损失 较 小 的 水 平 镜像 和 竖 直 镜像 的 数据 增强 方法 ; 知 再 使 用 其 他 数据 增 
强 方法 不 仅 无 法 提升 模型 分 类 正确 率 ， 反 而 会 影响 训练 时 间 。 
1.4 Beta-x-model: miniAlexNet 
1.4.1 网 络 结构 

针对 训练 样本 较 少 的 Beta-x 类 别 ， 为 减少 参数 量 ， 未 使 用 双 通 道 并 行 网 络 结构 ， 而 是 
使 用 相 比 于 ResNet18 更 为 轻 量 级 的 Alex Net"?! 2583/24 E73 Beta-x-model 的 backbone, 4f 
入 源 为 白光 图 和 磁 图 的 混合 图 像 ， 即 图 像 的 第 一 个 Channle 为 白光 图 ， 第 二 个 Channel 为 磁 
图 ， 为 使 用 ImageNet 数据 集 的 预 训 练 模型 ， 需 保证 输入 图 像 为 常规 三 通道 图 像 ， 故 设置 第 
Z= Channel 为 白光 图 和 磁 图 各 按 0.5 权重 的 加 和 ， 以 引导 网 络 学 习 白光 图 和 磁 图 之 间 的 纹理 
关联 信息 并 填补 通道 空缺 。 为 进一步 减少 后 续 全 连接 的 参数 量 , 在 最 后 一 个 卷 积 层 后 接 一 个 
output. size 为 3x3 的 自 适 应 池 化 层 ， 最 后 将 特征 送 入 单 层 全 连接 ， 输 出 三 个 类 别 的 置信 度 。 
同时 , 为 了 补偿 网 络 提 取 图 像 特 征 的 能 力 ， 为 网 络 输入 较 高 分 辨 率 的 图 像 ， 将 原 图 像 分 辨 率 


变换 为 500X375。 
input 门 


backbone Adaptive 2048 fc 
-pooling 


图 7 miniAlexNet 网 络 结构 图 
Fig 7 Network structure diagram of miniAlexNet 


1.4.2 训练 策略 

首先 ， 对 数据 集 进行 清洗 。 对 于 Alpha 类 别 和 Beta 类 别 的 数据 ， 鉴 于 其 时 间 轴 上 连续 
性 较 差 ， 全 部 保留 。 对 于 Beta-x 类 别 的 数据 ， 首 先 按照 时 间 进 行 排序 ， 根 据 该 类 别 数据 集 
图 像 序列 在 时 间 轴 上 的 强 连 续 性 ,对 Beta-x 类 别 的 数据 以 3/4 的 下 采样 率 进 行 数据 清洗 , 大 
大 降低 了 数据 的 元 余 度 和 网 络 对 重复 信息 进行 无 用 学 习 的 压力 。 


由 于 Beta-x 类 别 和 Beta 类 别 之 间 的 差异 较 小 , 故 采 用 降温 技巧 , 即 降低 原先 输出 的 logit 
值 ， 再 进行 softmax， 以 增加 网 络 在 学 习 时 各 个 类 别 的 差异 性 ， 降 低 网 络 学 习 压 力 ， 加 快 收 
敛 速 度 。 

在 数据 增强 上 , 采用 了 对 图 像 信息 影响 较 大 但 抗 过 拟 合 效果 更 佳 的 图 像 随机 角度 旋转 对 
训练 集 进 行 增 广 ， 旋 转角 度 控 制 在 90 度 以 内 。 

最 后 ， 通 过 对 验证 集 的 logit 输出 分 布 的 分 析 ， 发 现 当 Beta-x 输出 头 的 logit 值 同 Beta 
输出 头 的 logit 值 的 差 值 在 [0, 0.5] 区 间 内 时 ,存在 7% 的 Beta 类 别 样本 被 误 判 为 Beta-x 类 别 。 
故 当 二 者 所 代表 的 输出 头 的 logit 值 的 差 值 在 [0, 0.5] 区 间 内 时 ， 增 大 Beta 输出 头 的 logit 值 ， 
进行 概率 性 校正 。 

1.5 模型 集成 

基于 1.3 节 讨 论 的 Alpha 类 和 Beta-x 类 的 不 相干 性 , 将 paraResNet 模型 得 到 的 分 类 结果 
同 miniAlexNet 模型 的 分 类 结果 融合 , 即 采用 前 者 的 Alpha 类 别 分 类 结果 和 后 者 的 Beta-x 类 
别 的 分 类 结果 ， 将 未 被 标记 类 别 的 样本 划 归 为 Beta 类 ， 从 而 夹 副 出 Beta 类 别 的 分 类 结果 。 


2 ”实验 与 结果 分 析 


2. 1 参数 设置 

在 针对 Alpha 的 模型 训练 过 程 中 , 本 实验 采用 了 Adam 自 适 应 优化 器 所 ,初始 学 习 率 定 
为 2e-6; 作为 SGD 的 扩展 ，Adam Optimizer 能 够 根据 每 个 参数 的 先前 梯度 ， 自 适应 地 调整 
梯度 的 系数 , x FIT RU ECCO i e mR E DS FUSCE A SCORES. 所 加 权重 为 Alpha: 
1.56. Beta: 1.0. Beta-x: 3.05， 该 权重 是 基于 Alpha. Beta. Beta-x 三 个 类 别 在 训练 集中 的 
样本 数量 比例 进行 设置 , 在 该 比例 的 基础 上 根据 验证 集 分 类 效果 进行 微调 ， 从 而 能 够 在 损失 
层面 降低 训练 数据 类 别 不 均衡 带 来 的 影响 。 

在 针对 Beta-x 的 模型 训练 过 程 中 ， 本 实验 采用 了 带 有 动量 的 SGD 下 降 策 略 ， 学 习 率 为 
0. 0008， 动 量 参数 为 0.9。 另 外 ， 本 实验 做 了 两 个 额外 的 数据 集 预 处 理 操 作 ， 首 先 因 Beta-x 
类 别 样本 数据 量 本 身 较 小 , 故 将 输入 图 像 分 辨 率 修 改 为 500X375, 尽 可 能 保留 数据 集 信 息 ; 
其 次 对 训练 集中 额外 的 元 余 信息 进行 滤 除 ， 即 对 Beta-x 类 别 中 在 时 间 轴 上 连续 的 图 像样 本 
序列 进行 以 4 为 步 长 的 下 采样 ， 最 终 保留 891 个 训练 样本 。 
2.2 评价 指标 

本 实验 采用 Fl-score 作为 太阳 黑子 三 分 类 任务 的 衡量 指标 , 它 是 精确 率 和 召回 率 的 调和 
平均 数 , 最 大 为 1, 最 小 为 0; Fl-score 接近 1 代表 模型 在 该 类 别 上 的 分 类 性 能 较 好 ; 反之 ， 
接近 0 则 代表 模型 在 该 类 别 上 的 分 类 性 能 较 差 ，Fl-score 计算 公式 见 式 (1)。 

F =2. precision : recall &CD) 
precission + recall 

数据 集 共 有 三 个 类 别 Alpha、Beta、Beta-x， 每 个 类 别 均 对 应 一 个 Fl-score， 因 为 Beta 
类 别 太 阳 黑 子 在 现实 中 出 现 概率 最 高 , 故 本 实验 将 Beta 类 别 的 Fl-score 作为 首要 考虑 对 象 ， 
其 次 为 Alpha 和 Beta-x。 
2.3 消融 实验 

本 论文 针对 训练 数据 不 平衡 的 特性 , 采用 了 针对 性 的 双 模 型 融合 算法 , 即使 用 双 通 道 并 
fT ResNet18 进行 针对 性 训练 得 到 较 好 的 Alpha 类 别 分 类 模型 ， 使 用 miniAlexNet 进行 针对 
性 训练 得 到 较 好 的 Beta-x 类 别 分 类 模型 .最 后 再 基于 Alpha 类 别 和 Beta-x 类 别 的 不 相干 性 ， 
将 前 者 的 Alpha 类 别 分 类 结果 同 后 者 的 Beta 类 别 分 类 结果 进行 融合 ， 得 到 最 终 的 三 分 类 结 
果 。 

本 论文 对 分 类 模型 的 评价 指标 同比 赛 方 要 求 相同 ， 使 用 综合 了 精确 率 和 召 
Fl-score 以 衡量 模型 在 测试 集 上 的 分 类 性 能 。 


H 


率 的 


2. 3. 1 Alpha-model 


首先 对 针对 Alpha 类 别 的 模型 进行 消融 实验 ， 以 验证 各 项 策略 的 有 效 性 。 
表 5 各 项 技巧 为 Alpha-model 带 来 的 F1-score 提升 
Table 5 Improvement of F1-score brought by various skills to Alpha-model 


Backbone: ResNet18 
数据 增强 〈 镜 像 ) 
损失 加 权 
下 采样 模块 改进 
Alpha Fl-score 


Beta Fl-score 


Beta-x Fl-score 


0.945 
0.849 
0.685 


0.969 
0.867 
0.676 


X : 加 粗 字 体 为 每 行 最 优 值 


Y 
Y 
Y 
Y 
0.967 0.970 
0.883 0.887 
0.711 0.713 


由 表 5 可见， 每 一 项 技巧 都 对 模型 的 分 类 性 能 有 了 显著 提高 ， 数 据 增强 水平 镜 像 + 竖 


光 图 像 和 磁场 图 像 的 特征 , 更 多 的 参数 也 带 来 了 更 强 


直 镜 像 ) 在 对 图 像 信息 影响 较 小 的 基础 上 弥补 了 训练 集 较 小 的 问题 ， 增 强 了 抗 过 拟 合 能 力 ; 
双 通 道 网 络 更 好 地 提取 了 太阳 黑子 的 


的 拟 合 能 力 ; 损失 加 权 平 衡 了 Alpha 类 别 同 Beta 类 别 的 在 训练 数据 量 上 的 不 平衡 关系 ; 下 


采样 模块 在 精度 上 的 提高 进 


步 提升 了 网 络 提取 特 生 


FE 的 有 效 性 ; 最 为 关键 的 是 , 针对 性 训练 


后 的 双 通 道 并 行 模 型 paraResNet 对 Alpha 类 别 的 分 类 效果 非常 好 。 


2.3.2 Beta-x-model 


对 针对 Beta-x 类 别 的 模型 进行 消融 实验 ， 以 验 训 


FE 各 项 策略 的 有 效 性 


T 


o 


XE 6 各 项 技巧 为 Beta-x-model 带 来 的 Fl-score 提升 


Table 5 Improvement of F1-score brought by various skills to Beta-x-model 


Backbone: AlexNet 
数据 增强 (翻转 + 清洗 ) 
降温 处 理 
概率 性 校正 


Alpha Fl-score 
Beta Fl-score 


Beta-x Fl-score 


0.872 
0.839 
0.786 


0.907 
0.872 
0.814 


X : 加 粗 字体 为 每 行 最 优 值 
由 表 6 可 见 ,每 一 项 技巧 都 对 模型 的 分 类 怕 


LSB 
上 月 已 


Y 

Y 

Y 
0.927 0.932 
0.891 0.898 
0.853 0.877 


有 了 显著 提高 ;数据 增强 (随机 角度 旋转 》 


大 大 减轻 了 Beta-x 类 别 数 据 量 过 小 带 来 的 不 利 影响 ， 降 低 了 小 数据 量 带 来 的 过 拟 合 风险 ; 
将 更 高 分 辩 率 的 图 像 送 进 网 络 训练 , 弥补 了 小 网 络 的 特征 提取 能 力 的 不 足 ; 降温 处 理 和 概率 


性 校正 则 通过 人 为 调整 干预 , 提升 了 模型 对 于 复杂 分 类 边界 的 拟 合 能 力 ; 而 小 巧 的 网 络 
少 的 参数 , 使 miniAlexNet 模型 对 训练 数据 量 较 少 的 Beta-x 类 别 的 


络 更 好 。 
2. 3. 3 双 模 型 集成 


最 终 再 将 paraResNet 和 miniAlexNet 两 个 模型 进 
果 同 后 者 的 Beta-x 类 别 分 类 结果 进行 融合 ， 将 未 被 标记 类 别 的 样本 划 归 为 Beta 类 别 ， 得 到 


最 终 的 三 分 类 结果 。 


分 类 


it 


效果 相 比 于 双 通 道 网 


成 , 即将 前 者 的 Alpha 类 别 分 类 结 


Alpha Fl-score 
Beta F1-score 


Beta-x F1-score 


表 7 双 模 型 集成 在 测试 集 上 带 来 的 FI-score 提升 


Table 7 Improvement of F1-score brought by dual model integration on verification set 


paraResNet 
0.970 
0.887 
0.713 


miniAlexNet 双 模 型 融合 
0.932 0.970 
0.898 0.946 
0.877 0.877 


注 : 加 粗 字 体 为 每 行 最 优 值 
由 表 7 可 以 看 出 ， 融 合 后 的 模型 完全 保留 了 双 通 道 并 行 模型 paraResNet 在 Alpha 类 别 
上 得 到 的 FI-score 和 miniAlexNet 模型 在 Beta-x 类 别 上 得 到 Fl1-score， 从 而 夹 通 出 比 二 者 都 


分 别 为 0.970、0.946、0.877。 
2.4 与 其 它 算法 比较 
本 实验 对 Fang 等 (和 Yang 等 中 设计 的 网 络 结构 以 及 当下 主流 网 络 结构 ResNet "在 使 


了 翻转 增强 和 损失 加 权 的 基础 上 上， 在 SOLAR-STORMI 数据 集 上 进行 实验 验证 。 


表 8 多 种 模型 实验 结果 


Table 8 Experimental results of various models 


更 高 的 Beta 类 别 的 Fl-score， 最 终 在 测试 集 上 ，Alpha 2$. Beta 类 和 Beta-x 类 的 FI-score 


Beta-x Fl-score 平均 F1-score 
0.726 0.828 
0.711 0.837 
0.680 0.835 
0.706 0.850 
0.713 0.857 
0.877 0.902 
0.877 0.931 


Alpha Fl1-score Beta Fl-score 
Fang's CNN 0.903 0.854 
ResNet18 0.941 0.860 
ResNet50 0.957 0.868 
双流 ResNet50 0.966 0.879 
paraResNet 0.970 0.887 
miniAlexNet 0.932 0.898 
双 模 型 集成 0.970 0.946 
X : 加 粗 字体 为 每 列 最 优 值 ; 所 有 参考 模型 均 采用 了 镜像 数据 增强 和 损失 加 权 的 训练 技巧 
对 比 实验 结果 如 表 8 所 示 ， 从 表 中 可 以 看 出 ， 本 文 提 H 


的 paraResNet 模型 在 Alpha 类 


别 上 取得 的 效果 非常 优异 ，F1-score 达到 了 0.970; 同样 的 ， 本文 提出 的 miniAlexNet 网 络 在 


Beta-x 类 别 上 取得 了 优异 的 物 


ERE, Fl-score 达到 了 0.877; 将 paraResNet 模型 和 miniAlexNet 


模型 集成 后 ， 保 留 了 前 者 在 Alpha 类 别 上 的 性 能 和 后 者 在 Beta-x 上 的 性 能 ， 取 得 了 最 优 的 


Beta 类 别 分 类 结果 ，Beta 的 Fl-score 达到 了 0.946， 远 超 所 有 单 网 络 模型 。 


3 结 i 


WITA PAET 


四 集 进行 了 分 析 , 在 论证 了 双 模 型 集成 有 效 性 和 可 行 性 的 基础 上 , 38 


过 分 别 训练 针对 Alpha 类 别 的 双 通 道 并 行 模型 paraResNet 和 针对 Beta-x 类 别 的 miniAlexNet 
模型 并 将 二 者 结果 融合 夹 允 Beta 类 别 的 方法 ， 巧 妙 地 避免 了 重 模型 在 少 样本 类 别 上 的 过 拟 
合 问题 和 轻 模型 在 多 样本 类 别 上 拟 合 能 力 不 足 的 问题 , 且 保 留 了 二 者 在 各 自 优势 类 别 上 的 优 
异性 能 ， 从 全 新 的 角度 降低 了 类 别 不 均衡 问题 带 来 的 影响 ， 


集 的 三 个 类 别 上 取得 的 3 


双 模 型 集成 入 


为 了 进一步 减少 模型 的 复杂 度 、 参 数量 和 前 向 失 
可 以 考虑 通过 知识 蒸 饮 和 小 样本 学 习 的 方式 , 使 


34 Fl-score 超越 了 所 有 单 网 络 模型 


最 终 在 SOLAR-STORMI 数据 
中 


法 不 仅 对 太阳 黑子 分 类 任务 有 效 , 其 余 任何 三 分 类 任务 均 可 参考 此 集成 方 


法 ， 此 算法 对 所 有 基于 机 器 学 习 的 、 各 类 别 村 


少 样本 类 别 上 的 分 类 性 能 ， 从 而 替代 双 模 型 结构 。 


本 数量 不 均衡 的 分 类 任务 具有 局 发 性 意义 。 
理 耗 时 ， 并 降低 模型 的 部 署 难 度 ， 未 来 
得 单 网 络 模型 能 够 同时 兼顾 在 多 样本 类 别 和 


Classification of sunspot magnetic types based on dual model 


integration 


Chen Qingyuan!, Jin Fan’, Feng Dehua', Wang Yunlong!, Liang Yijun'' 


了 . Xi'an Jiaotong University, Xi'an 710049, China 
2. Zhejiang University of Science and Technology, Zhejiang 310023, China 
Abstract: Sunspots occur in the solar photosphere and can make the prediction of solar flares. Aiming at the 
three classification sunspot data set with unbalanced number of category samples, a dual model integrated 
algorithm is proposed. This method uses two models, one light and one heavy, to undertake the classification 
tasks of two categories respectively, and then integrate the classification results of the two to squeeze out the 
classification results of the third category. Experiments show that this method can reduce the adverse effects of 
over-fitting and under-fitting of a single model on unbalanced data sets, and solve the problem of class imbalance 


in sunspot data sets from a new perspective, with an average F1 score of 0.931. 


Key words: Sunspot classification; Dual model integration; Category imbalance; Overfitting; Underfitting 
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